【六西格玛之统计】描述性统计:分布情况、中心趋势和离散程度 您所在的位置:网站首页 分布 统计 【六西格玛之统计】描述性统计:分布情况、中心趋势和离散程度

【六西格玛之统计】描述性统计:分布情况、中心趋势和离散程度

2023-02-27 08:25| 来源: 网络整理| 查看: 265

什么是描述性统计?

这篇文章主要谈的是描述性统计方法的使用。在开始之间先回忆一下,当我们读完一篇文章后,同时又需要把这篇文章转述给别人听的时候,我们会把文章再照着原文读一遍给别人听吗?显然不是,我们通常会用一段文字进行总结全篇的中心思想、把主要的观点和信息传递给别人就可以了。试想如果我们读的不是文章而是数据,那我们需要一种什么样的方法来传递数据的“中心思想”呢?这就是描述性统计。它只不过是对数据的“概括”和“总结”。这种方法比面对一个个零散的数据更加有意义,更容易呈现出数据的规律,使对应的研究人员更清晰了解所收集的数据的整体情况。

描述性统计的三个特征

1. 分布情况

分布情况其实就是一组数据中各个数值(或者区间段)出现的频率。举一个直观的例子:对于一组学生的考试成绩,我们可以统计出每个分数段(例如0-10分、10-20分、20-30分、 ....... 、 90-100分)中的学生人数,然后绘制成频率分布图。这样我们就可以很容易地看出大多数学生的成绩分布在哪个区间,以及有多少学生的成绩偏低或偏高。如果我们会使用一些数据分布检验方法,我们可以进行拟合是否符合某些常见的分布,比如大名鼎鼎的正态分布、泊松分布等等。

2. 中心趋势

中心趋势是用来反应数据的"大体水平"或"整体趋势"。通俗一点说,主要描述了数据集中在什么样的位置。通常用平均数、中位数或众数来量化数据。

a. 平均数

假设我们有一个10人年龄的数据集:{20, 22, 25, 26, 28, 30, 35, 40, 45, 50}。为了求平均数,我们将所有年龄相加,然后除以数据集中的人数:(20+22+25+26+28+30+35+40+45+50) / 10 = 30,也就是该组数据集的平均年龄为30岁。

平均数可以有效省略具体的数据,只用一个值来反映一组数据的平均水平。同时如果在比较不同数据组的时候,可以用平均数来简单地判断整体的情况

b. 中位数

为了找到中位值,我们将上述的数据集按照数字顺序排列年龄,并找到中间那个值。如果数据总数是偶数,则中位数是中间两个值的平均值,如果数据总数是奇数,则中位数就是中间的那个值:{20, 22, 25, 26, 28, 30, 35, 40, 45, 50}。所以中位数:(28+30)/ 2=29,也就是年龄中位数为29岁。

中位数非常有用,因为它可以把一组数据分成上下两部分,反映了一组数据的中间值,可以有效地抵抗异常值的影响

c. 众数

众数就是我们在数据集中找到最频繁出现的值:{20, 22, 25, 26, 28, 30, 35, 40, 45, 50}。很显然上述数据集中没有众数,因为没有重复的年龄。

众数能够更好地反映一组数据最常见的情况。这里需要说明一个问题,三个统计量中最有效的其实是中位数。平均数容易受到极端值的影响,众数受到大量数据的影响比较大。而中位数介于两者之间,是一个比较稳定的指标,综合反映了数据的分布。举一个例子,每年统计局都会发布各个城市的平均工资水平,然而大多数网友都会觉得自己拖了后腿。这种原因可能就是少部分人的收入极高,拉高了整体的平均数导致的。所以在做分析的时候,一定要在整体上把握数据,选择最适合的统计量

3. 离散程度

离散程度有两个主要的统计量:一个是极差、另一个是标准差。极差可以快速了解数据的情况,但它容易受到异常值的影响,通常在简单的场景中用作分布的度量。标准差是衡量数据与平均值偏差的一种度量,通常用于推断统计,不容易受异常值的影响。

a. 极差

假设我们有一个10人身高的数据集:{170, 175, 180, 182, 185, 187, 188, 190, 193, 195}。为了计算极差,我们需要找到数据集中最高值和最低值,然后做差值:195 - 170 = 25,也就是高度的极差为25厘米。

b. 标准差

对上面10个人身高的数据集计算方差。

首先需要计算数据集的平均值:

(170+175+180+182+185+187+188+190+193+195) / 10 = 183。

然后,我们计算每个值与平均值的偏差,并且对每个偏差进行平方,再相加后求平均值:

( (170-183)^2 + (175-183)^2 + (180-183)^2 + (182-183)^2 + (185-183)^2 + (187-183)^2 + (188-183)^2 + (190-183)^2 + (193-183)^2 + (195-183)^2 ) / 10 = 112.5。

最后取方差的平方根:112.5^0.5=10.6也就是,标准差为10.6 cm。总之,描述性统计是一种有用的分析方法,它能够概括性地描述一组数据的基本特征,并且可以用于数据对比,对于做出准确的决策有重要的意义。

欢迎关注公众号:六西格玛统计与工具



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有